Visualização da Informação - Trabalho Final

Aluno: Rodrigo Gomes Hutz Pintucci

Introdução

Há algumas semanas, criei o meu primeiro formulário, que pode ser acessado aqui. Ele foi feito por pura curiosidade, sendo sobre um tópico consideravelmente não sério: como as pessoas acham que se dariam em uma luta contra animais. Decidi utilizá-lo como base para o meu trabalho final de Visualização da Informação, pois aproveitaria a oportunidade para aprender a criar minhas própria bases de dados. Dessa forma, além de tirar conclusões sobre o tópico, poderia tirar conclusões de forma meta, sobre a natureza de bases de dados.

O questionário consiste de 75 perguntas, sendo estas:

De cara, percebi algumas melhorias que poderia ter feito. A primeira é o número de animais, um tanto elevado, que faz com que as pessoas fiquem cansadas durante a realização do formulário. A segunda é que poderiam ser inclusas mais perguntas sobre o usuário, tal como peso e altura, personalidade, etc.

De qualquer forma, o formulário foi feito e, como esperado, as pessoas responderam de forma bem divertida. No total, obtive 101 respostas. A seguir, vou analisar os dados obtidos. Primeiro, vamos importar as bibliotecas necessárias:

Lendo os dados

Como utilizei do Google Forms, fui capaz de extrair um csv com todos os dados. Posso utilizar da biblioteca pandas para lê-lo.

Para trabalharmos com a tabela, vamos torná-la mais conveniente. Vamos trabalhar apenas com as cem primeiras respostas, para facilitar as conclusões.

Vamos remover as colunas que não serão utilizadas. Para isso, antes devemos arrumar o nome das colunas, para facilitar a manipulação.

Como a maioria das respostas tinham limites definidos e eram obrigatórias, não há necessidade de tratar os dados faltantes. Contudo, houve uma brecha na pergunta referente à idade, que permitia que o usuário inserisse um valor não inteiro. Dessa forma, 2% dos dados devem ser tratados:

Agora, podemos calcular informações sobre os dados, tal como a idade média. Precisamos converter a coluna de idade para inteiro, pois ela está como string, devido à forma que os inputs foram salvos.

Vamos agora remover as colunas que não serão utilizadas. Vamos criar outro dataframe, para caso seja necessário voltar atrás.

Agora, com a ajuda da biblioteca plotly, podemos visualizar os dados de forma interativa. A primeira ideia foi criar um gráfico de barras com a porcentagem média de confiança para cada animal.

Para destacar aqueles de maior confiança, os valores foram ordenados de forma decrescente. Também foi pintado de verde as barras cuja confiança média era maior que 50%.

Podemos ver que apenas 14 dos 35 animais possuem uma confiança média maior que 50%. Além disso, a confiança média para os animais é de 41,3%. O animal pelo qual as pessoas se demonstram mais confiantes é a galinha, com 85,8%. Enquanto isso, o animal pelo qual as pessoas se demonstram menos confiantes é o gorila, com 5,2%.

Outra informação do formulário que podemos utilizar é o gênero. Podemos agrupar os dados por gênero e realizar o mesmo gráfico anterior.

Para isso, vamos criar um dataframe adicional, df3, que é agrupado por gênero. Como cada gênero terá sua própria cor, decidi plotar uma linha horizontal para simbolizar a confiança de 50%.

Incluindo a média total, tal como as quatro opções de resposta para gênero, o gráfico fica um tanto quanto poluído. Contudo, uma vez que estamos lidando com a biblioteca plotly, podemos utilizar o recurso de habilitar e desabilitar as categorias, para facilitar a visualização.

A opção "Outro" e "Prefiro não dizer" obtiveram respectivamente 6 e 3 respostas. Como a quantidade de respostas é muito pequena, é possível que essa amostra não seja representativa. Dessa forma, vamos comparar apenas os gêneros "Masculino" e "Feminino".

Percebemos que, com exceção do ornitorrinco, os homens apresentam uma confiança consideravelmente maior que as mulheres.

Em seguida, gostaria de responder uma pergunta meta: a que ponto a quantidade de respostas pode se tornar representativa? Percebi que, no começo, havia bastante respostas contrárias, mas que, com o passar do tempo, a média foi se estabilizando.

Para isso, decidi criar outro gráfico de barras, que representa a comparação entre a média final e a média acumulada.

Para esse gráfico, foi colocado um botão de play e pause, para que o usuário possa acompanhar a evolução das média, a partir do número de respostas. Podemos perceber que no começo a média acumulada é bem maior que a média final, uma vez que os extremos são mais comuns. Contudo, com o passar do tempo, a média final se aproxima da média acumulada.

É perceptível também que não é necessário um valor muito alto de respostas para que a média final se aproxime da média acumulada. A partir de 30 respostas, a média final já se aproxima da média acumulada.

Para que possamos ter uma ideia melhor, vamos calcular a diferença e plotar um gráfico de linha.

Podemos perceber que não são necessárias tantas respostas para conseguir uma amostra representativa. Contudo, ainda devemos tomar cuidado, tal como no caso do gênero.

Sabendo disso, podemos fazer uma última comparação com gráfico de barras, comparando as médias totais com as médias de alunos da FGV.

Percebemos que os alunos da FGV são mais confiantes que a média geral, sendo essa bem próxima da média masculina. Isso não é tão surpreendente, caso vejamos quais os gêneros predominantes nas respostas:

Por fim, gostaria de realizar uma análise da média de confiança por idade. Para isso, achei conveniente utilizar o boxplot.

Esse gráfico leva em considerações quais respostas foram mais comuns, e não apenas a média. Por isso, todos os boxplots estão com a mesma escala. Infelizmente, não foi possível identificar um padrão, uma vez que a maioria das respostas foram de pessoas com idade entre 18 e 22 anos. Isso pode ser explicado pelo fato de que a maioria dos alunos da FGV se encontra nessa faixa etária, sendo esse o meio que mais consegui divulgar o formulário. Em próximas experiências, seria interessante tentar aumentar a quantidade de respostas de pessoas com idades mais avançadas. A escassez dessas respostas pode ser visualizada melhor se o boxplot for referente à média da confiança:

Podemos perceber que a metade das idades só apresenta uma resposta, o que pode ser um indicativo de que a amostra não é representativa.

Contudo, é possível que essa amostra seja representativa para a faixa etária de 18 a 22 anos, uma vez que a maioria das respostas foi de pessoas nessa faixa etária.

Por mais que as respostas detalhadas tenham sido engraçadas, infelizmente não podemos tirar proveito, uma vez que as palavras mais comuns são artigos e pronomes.

Por exemplo, observemos o ornitorrinco, o único animal sobre qual respostas do gênero feminino apresentaram uma confiança maior:

Para um futuro formulário, talvez seja recomendável que as respostas sejam mais objetivas, tal como um conjunto de palavras-chave.